Analyse Statistique sur des données de phénotypage
Dans le cadre de ce projet en statistique, réalisé au sein du LEPSE (Laboratoire d'Écophysiologie des Plantes sous Stress Environnementaux) de l'INRAE, j'ai travaillé sur des problématiques GxE (Génotype x Environnement) appliquées à des données de maïs, dans le cadre du projet EPPN. Le LEPSE est un laboratoire spécialisé dans l'étude des réponses des plantes aux stress environnementaux, avec un fort accent sur l'amélioration des cultures pour faire face aux défis climatiques. Le LEPSE possède une serre de phénotypage haut débit, c'est-à-dire une structure dans laquelle des mesures sur un ensemble de plantes sont automatisées à l'aide de capteurs, ainsi que de valeurs déduites à l'aide de sessions photo à l'issue desquelles des données estimées sont générées (comme la hauteur d'une plante, la surface foliaire ou le nombre de feuilles). Ce genre d'infrastructure génère beaucoup de données, rendant possible une analyse statistique précise.
Les données provenaient de plusieurs plateformes de phénotypage européennes, dont celle du LEPSE, ainsi qu'une plateforme basée à Adélaïde, en Australie. L'objectif était de mieux comprendre l'interaction entre les différents génotypes de maïs et les variations environnementales, afin de contribuer à la sélection de variétés plus résistantes.
Tâches & Objectifs
Mon rôle principal était d'analyser les données de maïs issues de différentes serres situées en Europe et à Adélaïde. Je devais produire des visualisations claires et informatives pour illustrer les différences observées entre les génotypes de maïs en fonction des conditions environnementales de chaque serre.
L'objectif était de mettre en exergue les différences et similitudes entre les espèces comparables, en prenant en compte la localisation géographique des serres. Cela permettrait de mieux comprendre comment les différents génotypes réagissent à des environnements variés, et d'identifier les variétés les plus résilientes face aux stress environnementaux.
Actions et Développement
Pour mener à bien l'analyse, j'ai utilisé le logiciel R pour effectuer le nettoyage des données et l'analyse statistique. Un des outils principaux a été l'Analyse en Composantes Principales (ACP), permettant de situer les différentes plateformes de serres les unes par rapport aux autres, pour une espèce ciblée de maïs.
La première étape cruciale a été le nettoyage des données, qui s'est avéré complexe en raison de la variabilité des jeux de données provenant de laboratoires différents. Il a ensuite fallu "calibrer" les données afin de les rendre comparables, ce qui a représenté un défi important en raison des différents algorithmes utilisés pour calculer les valeurs observées et des variations d'étalonnage des machines dans les différentes serres.
Tout au long du projet, j'ai collaboré avec le laboratoire MISTEA, basé également sur le campus de La Gaillarde, pour affiner les algorithmes de nettoyage de données. J'ai également travaillé en étroite collaboration avec le responsable scientifique de la serre de phénotypage du LEPSE et les techniciens pour résoudre les problèmes liés aux différences entre les données.
Le principal défi résidait dans les disparités de calibration et d'algorithmes entre les serres, rendant les données difficilement comparables. Pour résoudre ce problème, j'ai procédé à une phase de normalisation des données, en m'appuyant sur des heuristiques développées avec l'aide des experts du domaine.
Résultats
Les résultats de cette analyse exploratoire n'ont pas produit de bénéfices concrets, étant donné la nature de l'étude, mais ont offert des éclairages précieux sur les défis liés à la gestion des données provenant de multiples sources. L'un des principaux constats a été la difficulté de rendre les données comparables sans l'instauration de protocoles très stricts entre les laboratoires.
À long terme, cette expérience a mis en évidence l'importance d'une standardisation rigoureuse des protocoles de mesure pour garantir la comparabilité des résultats, en particulier dans des contextes de recherche multicentrique.
Parmi les principaux enseignements tirés, j'ai pu constater que, dans des situations réelles, les données issues de différents environnements sont rarement directement comparables. Que ce soit au niveau des définitions des mesures, des infrastructures ou des algorithmes d'imagerie utilisés, même de légères variations peuvent rendre la comparaison difficile. Par exemple, des données issues de 10 photos ne sont pas toujours comparables à celles provenant de 12 photos, en raison de paramètres d'algorithmes différents. De plus, le nettoyage des données s'est révélé crucial, non seulement pour éliminer les valeurs aberrantes, mais aussi pour corriger des erreurs telles que celles provoquées par des événements accidentels, comme la chute d'un pot de plante lors d'une session photo.
Stack technique
Les travaux ont été exclusivement réalisés à l'aide du logiciel R, en utilisant intensivement le package ggplot2 et data.table pour la représentation et la manipulation des données.